0
本文作者: 周蕾 | 2020-05-29 13:10 | 專題:金融聯(lián)邦學習公開課 |
近日,富數(shù)科技安全計算首席專家卞陽做客雷鋒網(wǎng)公開課,以《隱私計算重構邊界,聯(lián)邦學習重新定義大數(shù)據(jù)》為題進行分享。
卞陽在課程中用武林各大門派做例子,詳細分析了聯(lián)邦學習和隱私計算安全部分的主要算法原理,以及聯(lián)邦學習如何實現(xiàn)跨越數(shù)據(jù)要素邊界,在供應鏈金融、聯(lián)合營銷、金融機構存客促活等具體場景中落地應用。
關注微信公眾號 AI金融評論 ,在公眾號聊天框回復“聽課”,進群可收看本節(jié)課程視頻回放。
以下為卞陽課程全場回顧和互動問答精選,雷鋒網(wǎng)AI金融評論做了不影響原意的編輯:
感謝大家能在周五參加公開課。我叫卞陽,來自富數(shù)科技。
數(shù)據(jù)有多重要?早期的語音識別有這樣一個情況:男聲識別率很高,但女聲識別率很低——因為(用于訓練的)素材語料太少。
如果兩家公司對比,算法水平高和數(shù)據(jù)量很多,哪家的人工智能會做得更好?一般是數(shù)據(jù)更多的那家,因為它可以不斷優(yōu)化算法。
今天主要和大家交流隱私計算、聯(lián)邦學習,以及它們與數(shù)據(jù)、大數(shù)據(jù)的關系。
現(xiàn)在人工智能處處可見,有觀點說人工智能會定義業(yè)務邊界,其實安全也有相同的特點。數(shù)字化時代如果沒有安全,業(yè)務也很難展開。
安全和人工智能之間是何關系?未來若無智能,安全難以實現(xiàn);若無安全可言,人工智能亦無用武之地。
從信息論的角度來看,人工智能和密碼學頗為有趣,二者實為一對悖論。
人工智能是數(shù)據(jù)經(jīng)過加工,提取其中信息,訓練后變成知識。這是熵減的過程:熵越少,可用性就越高。
密碼學正好相反:隱藏有用的信息,編碼、打亂,變成另外一個空間的數(shù)據(jù)。這是信息熵增的過程,可用性越來越低。
但現(xiàn)在既想做安全,又想得到更強大的AI,得到更多的知識,如何是好?
如下圖所示,原始數(shù)據(jù)處理后,變?yōu)槊撁魯?shù)據(jù),信息量減少。但這并不足夠,還需要對中間數(shù)據(jù)進行加密——(這些步驟)都是隱私計算范圍。
但這并沒有結(jié)束,還需從中提取有價值的信息,引入聯(lián)邦學習,提取更多知識。
以前聯(lián)邦學習、人工智能和安全頗有些井水不犯河水的意思,互相關系不大。
2016年,歐盟制定GDPR,于2018年正式生效。而谷歌正是在2016年提出的聯(lián)邦學習——這時,人工智能跟密碼學的交集變多。
而當聯(lián)邦學習逐漸成為熱點,跟隱私計算的重合度就越來越高。
下一階段,在完全數(shù)字化時代,(人工智能與安全)二者很可能越來越深度融合。比如信通院制定了多方安全計算的數(shù)據(jù)流通產(chǎn)品標準,聽上去是安全相關,但也包含了機器學習。
聯(lián)邦學習的框架,不可避免會與安全相關。信通院也在制定聯(lián)邦學習的標準,當中也有不少關于安全的內(nèi)容,于是變成了你中有我、我中有你的狀態(tài)。
“聯(lián)邦學習里的安全怎么做?”這是必然要討論的問題。之前很多專家已分享聯(lián)邦學習的算法原理,安全方面相對講得不多,我們這次會側(cè)重隱私計算方面來談。
若以江湖門派類比,安全多方計算(MPC)是少林派:歷史悠久,功力深厚,最早可以追溯到上世紀80年代,有秘密共享、傳輸混淆電路等一些非常強大的獨門武器。
武當派可以對應到同態(tài)加密。武當派的特點是簡潔、優(yōu)雅,同態(tài)加密也類似:表達式清晰明了,實現(xiàn)起來卻很復雜。真正要做到全同態(tài)其實很難。
后起之秀華山派,可信計算環(huán)境(TEE)。當然,TEE跟聯(lián)邦學習關聯(lián)度較低,但也不排除某些聯(lián)邦學習解決方案能與TEE有所結(jié)合。
除此之外,還有像盲簽名、隱私信息檢索、零知識證明等這些相對更小的密碼學協(xié)議分支,同樣非常有用,好比泰山派峨眉派,它們共同組成了豐富多彩的隱私計算江湖。
共享這個詞有點讓人誤解,它并不是把各自的秘密數(shù)據(jù)真的共享了,而是各自的秘密還是可以得到安全的保護,但可以一起去計算得到結(jié)果,這個結(jié)果是可以共享的。
秘密共享的安全協(xié)議里,有數(shù)據(jù)的提供方,另外還有計算方,當然計算方跟提供方可以合二為一。
對比一下秘密共享跟同態(tài)加密的差別:同態(tài)加密是由一方提供密鑰,計算是在一個環(huán)境一方進行的。秘密共享叫安全多方,所以是在多方進行計算,有這樣一個特點。
比如說提供方1有個數(shù),以加法為例,提供方把數(shù)切片,有幾個計算方就切成幾片。切完之后有一片留在自己手上,不發(fā)給別人,其他片分發(fā)。實際怎么切片,也有很多方法,不是只有一個算法。
現(xiàn)在先理解切成多片,每一方也會拿到其他方的切片,拿到以后就在本地做計算,比如說x1+y1+z1,這就是一個加法,加起來形成新的等式。c1c2c3就屬于中間結(jié)果,最后要求和,中間結(jié)果已經(jīng)把各方的秘密混在一起了。
聯(lián)邦學習的計算表達式里,往往有多方數(shù)據(jù),聽起來很復雜,但通過這個方式,實際上沒有那么復雜。
當然,秘密共享有安全條件,即安全門限。n-1的安全性,但(兩方的情況下)n-1=1,所以兩方加法不存在安全模型,必須要多方。
但在聯(lián)邦學習當中,很可能建模只有兩方,這是否會出現(xiàn)一方推算另一方的情況?
從信息論熵增熵減的理論來看,(為了避免這種情況)表達式不能夠太簡單。好在機器學習計算往往是矩陣集合計算,這樣復雜的表達式計算完會變成一個值,不可能由此反推原始數(shù)據(jù)。所以越復雜的計算,安全性越高。
光有加法不夠,還需要有乘法,但乘法復雜度比加法更高,原理類似。
安全多方計算有兩個優(yōu)點:一是過程更加對等,不需要第三方拿了一個公鑰或私鑰去生成,其他方都依賴它進行加密解密。二是結(jié)果可以按照協(xié)議,分發(fā)給相對應的參與方。
同態(tài)加密(的原理是),誰有密鑰,肯定需要他去解密,安全性原理有所不同。
有些場合很難找到可信第三方,這時正是安全多方計算的發(fā)揮空間。除了乘法和加法,還有其他更復雜的計算,比如機器學習里面有 log、指數(shù)等,這些運算都可以用乘法和加法來構造。不管運算多復雜,理論上都可以用多方安全技術求解。
第二個是密碼學里非常重要的茫然傳輸,也叫不經(jīng)意傳輸(Oblivious Transfer,OT),是聯(lián)邦學習做安全對齊的必備。
比如Alice手上有兩個信息,Bob想要其中一個,但是不希望Alice知道他拿了哪一個。
密碼學可以把協(xié)議構造更復雜些,比如n個信息里取其一,或取m個,取出數(shù)量不能超出約定。既要有正確性,還要有安全性,這就是OT協(xié)議。
安全多方計算里面還有個“武器”混淆電路,由圖靈獎獲得者姚期智老師發(fā)明。
原理是:假如所有的輸入都轉(zhuǎn)成0和1,進行比特的「與非或」門電路計算,最后得到一個結(jié)果。
但是Alice和Bob的輸入,都不希望另外一方知道,通過生成門電路處理,最后拿到的一個結(jié)果無法反推雙方的輸入。
如何在兩方間構造電路?如果是在對方那里運行,不可避免要將輸入(內(nèi)容)給到對方,或者從對方拿(結(jié)果)。這時,不經(jīng)意傳輸就派上用場了,對方無從得知你拿走了哪一個,這就隱藏掉自己的一個信息。
所以,多方安全計算的混淆電路和茫然傳輸之間有關系,這些都是比較底層的理論。安全協(xié)議密碼學的這些內(nèi)容,構成了聯(lián)邦學習的安全基礎。
大數(shù)據(jù)這個詞,從提出到現(xiàn)在已經(jīng)很多年。早期,大家更多采用內(nèi)部數(shù)據(jù),隨后逐漸發(fā)現(xiàn)外部數(shù)據(jù)很有價值,就希望獲得盡可能多的外部數(shù)據(jù)。但在國內(nèi)外監(jiān)管法律法規(guī)下,獲取外部數(shù)據(jù)存在合規(guī)要求,大數(shù)據(jù)(的發(fā)展)也就受限。
數(shù)據(jù)如今已是生產(chǎn)要素。聯(lián)邦學習怎樣讓AI跨越數(shù)據(jù)要素邊界?這就是前文所述的“武器”如何運用。
在做機器學習之前,往往需要完成對齊的動作。如果不知道兩邊的樣本,也不清楚如何使用,學習自然無法進行。
舉例:Alice和Bob各有一個樣本集,兩邊怎么安全對齊ID?首先要處理自己樣本里的ID,這是一個加密的過程。我們可以這樣理解:
Step 1:把自己信息和一張復寫紙放到信封里,給到 Bob。
Step 2:Bob在信封上簽名蓋章,再返回給Alice。
Step 3:Alice拿到之后打開信封,去掉掩碼,但因為有復寫紙,所以Bob的簽名也印到了Alice給的信息上。
Step 4:Bob把自己手上每個ID也做簽名。
因為只有他自己有私鑰,所以Alice無法生成這些ID。也正因為ID經(jīng)過哈希后用私鑰簽名,Alice即使拿到信息,也無法判斷對應關系,只有她自己去掉了掩碼就事先拿到Bob簽名的這批ID,才能正好匹配上了。
如果Alice手上沒有ID,肯定匹配不上。如果她有一個ID,Bob那邊沒有,Bob自然也無法生成一個帶了自己簽名的信息。
但這并不是公平對等的方案,因為Alice獲得了一定的信息不對稱優(yōu)勢:為什么是她先知道Bob哪些ID跟她有對齊?
好在密碼學還有很多種武器,其中比特承諾就是更公平的一種方案,可以保證參與雙方通過一種公平的方式來交換信息,參與者相互間要么都能得到對方的信息,要么都得不到。
安全對齊真的安全嗎?用戶哪些ID的數(shù)據(jù)參與了后面的機器學習,在一些場景中也是敏感的,能隱藏ID嗎?這就變成更復雜的問題了。
所以樣本對齊有三個層次的安全:第一個,比較簡單的盲簽名的安全對齊,但不太公平。第二種是安全公平的交換,第三種要隱藏被匹配到模型中的ID。
對于第三種,密碼學也有辦法解答。行業(yè)中有人提出差分隱私方案,復雜度很高,噪音的加入也會導致模型效果有損失。我們也有另外的一些安全手段,有興趣大家可以進一步交流。
不可避免地,做聯(lián)邦學習一定要有安全計算。
我們知道聯(lián)邦學習有不同的流派,縱向、橫向、遷移。橫向聯(lián)邦學習的實現(xiàn)相對簡單,因為在本地就可以訓練,模型再到云端匯總。
但縱向就比較復雜,一邊是y變量,一邊是x變量。一個表達式里既有x本方的變量,又有對方的變量,怎么算出結(jié)果?
聽上去不可思議,好在有前面提到的多方安全計算,即使表達式里有n方數(shù)據(jù),也可以從最簡單的加法乘法開始構造。只要實現(xiàn)了這兩個方法,就能將表達式求值,還能約定表達式結(jié)果值如何分配。
用同態(tài)加密做聯(lián)邦學習,相對簡單,但限制也更多一些,會需要第三方協(xié)助。但在實際商業(yè)場景中往往很難找到第三方。此時,多方安全計算就有它的用武之地。MPC(多方安全計算)的多方安全,名詞本身和“聯(lián)邦”更對應,參與方的關系也更加對等,可以在無可信第三方的情形下進行計算,完成建模學習。
聯(lián)邦學習如果沒有好的數(shù)據(jù),訓練效果很難優(yōu)秀。為保證數(shù)據(jù)質(zhì)量,訓練前需要進行聯(lián)邦特征工程。
從名詞上可以看出,無論是計算IV值、計算共線性,還是像importance這樣用于篩選變量的值,也是用聯(lián)邦方式來產(chǎn)生的。
在無法獲取對方數(shù)據(jù)的情況下,如何操作執(zhí)行聯(lián)邦特征工程?我們通過可視化交互界面,共同做安全計算,能計算出特征IV值,還可以選擇多種分箱方式。
有了這個特征工程以后,也可以判斷對方的數(shù)據(jù)質(zhì)量,發(fā)現(xiàn)那些對接下來的建模有用的特征字段。
正如前文所述,聯(lián)邦學習需要一個發(fā)起方,不可能兩邊都操作或都不操作,總歸有一方在做具體主要的動作,當然另外一方可以去做審核和批準動作,有權限管控。
進行聯(lián)邦學習不光需要底層算法,同時也需要一個操作控制友好的界面。
另外還有探索性分析,比如說是否有異常值、缺失值,可以預先設定好規(guī)則,自動過濾日常值,更好控制訓練質(zhì)量。
聯(lián)邦學習最核心的,肯定是機器學習算法。下圖是機器學習已完成任務示意圖。
聯(lián)邦學習過程中,網(wǎng)絡上兩方或多方共同計算,如果了解不到計算狀態(tài),我們很難給出適當判斷。聯(lián)邦學習的性能比單機本地要慢很多,訓練幾十分鐘甚至更長時間都非常正常。在參與方之間需要將訓練過程可視化。
不同的場景下,算法變化會很多。為實際適應各種場景,需要有盡可能豐富的聯(lián)邦學習算法。
當企業(yè)發(fā)現(xiàn)自己數(shù)據(jù)有限,要和對方外部合作。數(shù)據(jù)獲取不到,互相不信任,或者有合規(guī)上的隱患。這時通過聯(lián)邦學習,數(shù)據(jù)會變得更易用。拿不到數(shù)據(jù)本身,但能能拿到數(shù)據(jù)的能力。
企業(yè)也希望使用過程盡可能簡單方便,比如哪些數(shù)據(jù)可用、授權權限管理;希望可以發(fā)現(xiàn)、搜索有價值的資源,在合作的雙方或多方相互能發(fā)現(xiàn),有點像微信那樣加好友才能連上對方、驗證通過。
之后怎么合作?有一方創(chuàng)建合作的項目,對方有什么樣的數(shù)據(jù)資源,是y變量還是x變量,橫向還是縱向,都可以可視化創(chuàng)建合作項目,在合作項目中約定,之后就可以進行安全數(shù)據(jù)處理。虛擬融合就是安全對齊的過程,形成看上去是虛擬的樣本集,實際上還是分布的。然后選一個聯(lián)邦學習算法,在虛擬融合集上進行訓練。
聯(lián)邦學習結(jié)束后,它還是一個分布的模型,參與方各有各的子模型,所以聯(lián)邦模型的使用,也要用到安全多方計算。
各方有自己的數(shù)據(jù)和子模型,在表達式或數(shù)的模型里,它的服務計算結(jié)構也是不一樣的。所以說我們還要支持把模型部署為服務,變成像API那樣可以對外提供,這樣才形成一個閉環(huán)。
通過聯(lián)邦學習,本來外部拿不到的數(shù)據(jù),可以因此跨越邊界,獲得大數(shù)據(jù)能力,成為真正的大數(shù)據(jù)。
如果能夠拿到各種各樣的維度,在商業(yè)競爭中肯定有更加明顯的優(yōu)勢。聯(lián)邦學習,能夠讓企業(yè)獲得了更強大的能力,就像上帝視角那樣,得到高維打低維的優(yōu)勢。
從具體案例來看,富數(shù)科技在2017年就立項做多方安全計算,那也是網(wǎng)絡安全法生效的一年。
我們當時就覺得,數(shù)據(jù)安全非常重要,也需要有一種更好的方式來使用,所以發(fā)起了開源項目Unitedata,有多家合作單位聯(lián)合研究。
2018年,我們的UD聯(lián)盟系統(tǒng)上線,已有部分落地應用的案例執(zhí)行;2019年,信通院多方安全計算的相關標準出臺后,我們也參與其中。富數(shù)安全計算聯(lián)邦學習平臺阿凡達(Avatar)也是最早通過信通院產(chǎn)品認證的。
為什么叫阿凡達?眾所周知,這部電影是說地球人通過“阿凡達”這個化身進入到外星世界,本體沒有轉(zhuǎn)移。這個外星空間里,納美人的頭發(fā)就是一種神經(jīng)元,由此連到靈魂樹,互相達成共識。
這點十分有趣,我們覺得這跟聯(lián)邦學習異曲同工:本體不轉(zhuǎn)移,以及相互連接達成更廣泛共識。所以阿凡達的意義是數(shù)字的世界里相互連接,形成更開放生態(tài)。
富數(shù)Avatar平臺支持私有化部署,其中有兩個核心模塊:底層聯(lián)邦學習算法模塊,加密計算模塊。正如同計算機不光有 CPU,還需要有GPU一樣,有兩個核心共同工作才能夠?qū)崿F(xiàn)聯(lián)邦學習。
使用阿凡達的兩家機構,他們可自身直接達成連接,不經(jīng)過包括富數(shù)在內(nèi)的任何第三方,就可以完成各種聯(lián)邦學習項目。
供應鏈金融里的應收賬款,銀行需要稅務開票數(shù)據(jù),但不容易拿到。
在一些項目中,企業(yè)若無授權,外部很難拿到數(shù)據(jù),即便拿到也只是單個小的數(shù)據(jù)。但只拿一條數(shù)據(jù),沒法完成聯(lián)邦學習,得要幾千、幾萬條稅務的數(shù)據(jù)和銀行的資金流水。
一邊是銀行資金交易信息,一邊是經(jīng)營信息來進行訓練,兩邊維度不同,也沒法匯集到一起,這在以前難度非常大。
讓銀行把數(shù)據(jù)放進安全沙箱是辦法之一,但沙箱數(shù)據(jù)要出庫有風險,這就導致:雖然我們希望公共服務數(shù)據(jù)能夠?qū)ν赓x能,實際操作中卻遇到安全隱患。
通過聯(lián)邦學習,比如銀行方企業(yè)交易數(shù)據(jù)仍由本地安全保護,同時可以連接到公共服務數(shù)據(jù)的開放平臺。數(shù)據(jù)資源在開放平臺上陳列可供選擇,審核后運行算法,看最終效果。
這樣一來,當小微企業(yè)想要去申請銀行貸款,銀行就有更適合的模型來判斷。
有些企業(yè)可能其實很大風險,經(jīng)營情況不太穩(wěn)定,由于銀行可以拿到更豐富的數(shù)據(jù),比如從用電數(shù)據(jù)判斷企業(yè)經(jīng)營趨勢,在風控模型上做得更好,預防潛在風險。貸前、貸中管理和實時監(jiān)測,也很需要多方數(shù)據(jù)來訓練模型。
上文提到,模型部署成服務,可以做到明細的數(shù)據(jù)不需要傳到銀行,用這個模型即可計算出結(jié)果。這對企業(yè)來說,授權的范圍可以進一步縮小。不管是公共服務部門還是大數(shù)據(jù)機構,對于掌握數(shù)據(jù)方而言,數(shù)據(jù)安全性也更高,避免了數(shù)據(jù)在使用的過程中被留存,或者面臨更大風險。
品牌商想和合作方聯(lián)合營銷,必然要對用戶做一些判斷:哪些用戶適合什么類型的產(chǎn)品?但些信息是汽車廠商自己掌握,大數(shù)據(jù)平臺很難判斷。
之前需要汽車廠商把CRM之類的信息,在大數(shù)據(jù)能力開放平臺里建模,即駐場式建模。但對品牌商來說,數(shù)據(jù)放出去也存在隱患。
通過阿凡達聯(lián)邦學習,可以利用大數(shù)據(jù)平臺更大維度的數(shù)據(jù)——實際使用中可能有上千維度,聯(lián)合建模,再對用戶進行分層分群,不同車型能更好匹配潛在用戶,活動轉(zhuǎn)化率和最后效果得到巨大提升。
每家機構都會有大量睡眠客戶,非常希望激活,但它本身是睡眠客戶,很難得到更豐富的信息去判斷。用外部標簽判斷客戶,相當于把自己的客戶信息泄露出去了。其次,如果不能雙方建模,匹配度也不高。
存量客戶對外進行畫像匹配時,也可以通過安全方式去查詢,這跟前面講的盲簽名非常像。然后建模,非常典型的縱向聯(lián)邦學習模型,之后可以更好判斷,把客戶分組,不同組對應不同營銷策略。
在這個過程中,金融機構并沒有拿到存量客戶更多的信息,消費信息、上網(wǎng)行為拿不到,非常合規(guī),但已經(jīng)知道了客戶適合的產(chǎn)品,提升了金融競爭優(yōu)勢。我們在實操中發(fā)現(xiàn),跟專家模型相比,它的轉(zhuǎn)化率可以提高100%以上。
安全與合規(guī)
用了聯(lián)邦學習是否就一定安全合規(guī)?聯(lián)邦學習降低了數(shù)據(jù)泄露的風險,同時在具體使用中依然需要遵循數(shù)據(jù)合規(guī)的法律要求。安全對齊在某些解決方案或者情況下也還是會存在一定隱患,我們提供了更加公平的、尤其對甲方更加安全的對齊方式,合規(guī)性也更好。梯度泄露、樣本投毒等其他安全挑戰(zhàn),需要有更好的解決方案,畢竟聯(lián)邦學習也在不斷成熟和發(fā)展之中。
性能和效率
對聯(lián)邦學習熟悉的朋友都知道,聯(lián)邦學習的計算量非常大。以往在本地非??欤挥眉用芤膊挥猛ㄐ牛虼耍ú捎寐?lián)邦學習后)性能上面往往有兩個數(shù)量級的降低。我們也做了不少優(yōu)化和嘗試,在性能上面還是取得了一些進展。
場景適用性
場景很多變,需要不同算法,也不光局限在機器學習。安全查詢就是非常強的需求。有一些情形還沒上升到學習的程度,但也要分析得到有用的知識,用多方安全計算可以解決。
在阿凡達的解決方案里,從簡單的加密查詢到多方計算和統(tǒng)計,再到不同的機器學習算法,還有神經(jīng)網(wǎng)絡、深度學習等。所以在場景適用性上面,我們也已經(jīng)取得一些成績。
互聯(lián)互通
它是多方的應用,兩個解決方案之間若無統(tǒng)一標準,聯(lián)邦學習要進行下去肯定很難。
問:哪些金融細分領域更適合聯(lián)邦學習?,
卞陽:細分領域非常多,比如保險、反欺詐的應用場景,都非常典型。金融非常依賴數(shù)據(jù),只要這個場景需要用到外部數(shù)據(jù),聯(lián)邦學習就特別適合。當然有些場景是不是一定要用機器學習?像剛才提到的供應鏈,其實雙方在進入到機器學習之前,還要做變量的處理。雙方都有變量,還想衍生出新的變量,怎么辦?這種情況用多方安全計算去衍生新變量,這個變量不反映用戶敏感信息,把變量構造出來。
問:供應鏈金融場景案例里,聯(lián)邦學習和區(qū)塊鏈兩種方案有什么區(qū)別和優(yōu)勢?
卞陽:聯(lián)邦學習跟區(qū)塊鏈肯定很大區(qū)別。區(qū)塊鏈不講學習,共同點都是分布式,在某些情況下也可以相互配合。富數(shù)也有區(qū)塊鏈松耦合的方案,因為要多方聯(lián)邦學習,可以在區(qū)塊鏈進行智能合約,約定數(shù)據(jù)的規(guī)格、利益的歸屬,使這個機制更加公平。
問:自己做的隱私保護聯(lián)邦深度學習模型,用同態(tài)加密太慢,差分隱私保護效果不好怎么辦?
卞陽:的確,同態(tài)加密性能是一個問題,用MPC可以優(yōu)化,因為同態(tài)加密相對來講比較固定和簡潔,但優(yōu)化空間會小。
問:聯(lián)邦學習的標準,哪個公司在牽頭制定?
卞陽:這個名詞首先最早提出是谷歌,微眾銀行應該是國內(nèi)的一個旗手。所以IEEE會議的標準,微眾銀行是發(fā)起方,富數(shù)科技也是標準組的成員。
問:數(shù)據(jù)開放平臺和模型服務是誰所有的?
卞陽:對數(shù)據(jù)源來講,數(shù)據(jù)開放平臺肯定是屬于數(shù)據(jù)擁有者。模型如果是雙方共建、訓練產(chǎn)生的模型,最后生成的模型服務,是看模型調(diào)用過程,包括模型分布情況。除非參與建模的一方,把自己的模型授權給其他方。如果不授權,那就是共有。
問:休眠客戶的激活,本質(zhì)是對客戶增加標簽維度,然后再激活客戶?
卞陽:如何激活,有不同的策略,這時要增加標簽的維度。如果因為策略不好,推了他不需要的產(chǎn)品,等于是騷擾,反而對客戶有壞影響,所以銀行要激活休眠客戶的時候也會非常謹慎。提高客戶匹配度,也變得非常重要。
問:各部分標注數(shù)據(jù)質(zhì)量有好有壞,聯(lián)邦學習可以怎么做?
卞陽:進行訓練之前,要對數(shù)據(jù)質(zhì)量做聯(lián)邦處理和分析,特征工程和探索性。當然這個過程也保護各方數(shù)據(jù)。統(tǒng)計性信息能不能給,也要經(jīng)過授權,就可以在進入學習之前判斷標注的數(shù)據(jù)質(zhì)量。如果前面不容易判斷,可以訓練出模型再去測試,評估其中維度的數(shù)據(jù)有沒有價值。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。